近几十年来,随着数据的可用,统计语言学已大大提高。这使研究人员能够研究语言的统计特性如何随时间变化。在这项工作中,我们使用来自Twitter的数据来探索英语和西班牙语,考虑到不同尺度的排名多样性:时间(从3到96小时),空间(从3公里到3000+km Radii)和语法(从字母组到五角形到Pentagrams) )。我们发现所有三个量表都是相关的。但是,最大的变化来自语法量表的变化。在最低的语法量表(会标)上,排名多样性曲线最相似,独立于其他量表,语言和国家的价值。随着语法量表的增长,等级多样性曲线的变化更大,具体取决于时间和空间量表以及语言和国家。我们还研究了Twitter特定令牌的统计数据:表情符号,主题标签和用户提及。这些特殊类型的令牌表现出一种sigmoid的行为作为等级多样性函数。我们的结果有助于量化似乎普遍存在的语言统计数据的各个方面,这可能导致变化。
translated by 谷歌翻译
具有潜在变量的深生成模型已被最近用于从多模式数据中学习关节表示和生成过程。但是,这两种学习机制可能相互冲突,表示形式无法嵌入有关数据模式的信息。本研究研究了所有模式和类标签可用于模型培训的现实情况,但是缺少下游任务所需的一些方式和标签。在这种情况下,我们表明,变异下限限制了联合表示和缺失模式之间的相互信息。为了抵消这些问题,我们引入了一种新型的条件多模式判别模型,该模型使用信息性的先验分布并优化了无可能的无可能目标函数,该目标函数可在联合表示和缺失模态之间最大化相互信息。广泛的实验表明了我们提出的模型的好处,这是经验结果表明,我们的模型实现了最新的结果,从而导致了代表性问题,例如下游分类,声音反演和注释产生。
translated by 谷歌翻译